我们先前的实验表明,人类和机器似乎采用了不同的方法来歧视说话者歧视,尤其是在说话风格可变性的情况下。实验检查了阅读与对话演讲。听众专注于特定于说话者的特质,同时“一起告诉说话者”,以及“告诉说话者分开”时共享声学空间的相对距离。但是,无论目标或非目标试验如何,自动扬声器验证(ASV)系统使用相同的损失函数。为了在风格变异性的存在下提高ASV性能,从人类感知中学到的见解被用来设计一种新的训练损失功能,我们称为“ CLLRCE损失”。 CLLRCE损失既使用说话者特异性的特质,又使用扬声器之间的相对声学距离来训练ASV系统。当使用UCLA扬声器可变性数据库时,在X-Vector和条件设置中,CLLCE损失使EER显着相对改善1-66%,而MindCF分别与1-31%和1-56%相比,相比之下X矢量基线。使用涉及不同的对话语音任务的SITW评估任务,拟议的损失与自我发项式调节结合,导致EER的显着相对改善2-5%,而MindCF则比基线高6-12%。在SITW案例中,绩效的改善仅与调理保持一致。
translated by 谷歌翻译